Telegram Group & Telegram Channel
Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными

Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.

Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.

Такие механизмы встроены, например, в:
➡️ XGBoost (можно задать missing),
➡️ LightGBM (имеет встроенную поддержку NaN),
➡️ CatBoost (автоматически обрабатывает пропуски).

Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если:
➡️ пропусков много,
➡️ отсутствие значений связано с целевой переменной или другими признаками.

В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/957
Create:
Last Update:

Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными

Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.

Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.

Такие механизмы встроены, например, в:
➡️ XGBoost (можно задать missing),
➡️ LightGBM (имеет встроенную поддержку NaN),
➡️ CatBoost (автоматически обрабатывает пропуски).

Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если:
➡️ пропусков много,
➡️ отсутствие значений связано с целевой переменной или другими признаками.

В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/957

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

That growth environment will include rising inflation and interest rates. Those upward shifts naturally accompany healthy growth periods as the demand for resources, products and services rise. Importantly, the Federal Reserve has laid out the rationale for not interfering with that natural growth transition.It's not exactly a fad, but there is a widespread willingness to pay up for a growth story. Classic fundamental analysis takes a back seat. Even negative earnings are ignored. In fact, positive earnings seem to be a limiting measure, producing the question, "Is that all you've got?" The preference is a vision of untold riches when the exciting story plays out as expected.

Mr. Durov launched Telegram in late 2013 with his brother, Nikolai, just months before he was pushed out of VK, the Russian social-media platform he founded. Mr. Durov pitched his new app—funded with the proceeds from the VK sale—less as a business than as a way for people to send messages while avoiding government surveillance and censorship.

Библиотека собеса по Data Science | вопросы с собеседований from hk


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA